干货来了——大数据在遥感中的应用研究(上)
1.引言
1.1 大数据概念与特征
随着信息和网络通信技术的快速发展,以及信息基础设施的完善,全球数据呈爆发式增长,国际数据资讯公司(InternationalDataCorporation ,IDC)的最新研究指出,全球过去几年新增的数据量是人类有史以来全部数据量的总和,到2020年全球产生的数据总量将达到40ZB左右,数据的增长量可能每十年就要增加一千倍。在这种背景下,“大数据”这一全新的概念应运而生。
图1数据增长规模预测
一般而言,把结构化、非结构化或半结构化的、远超出正常数据处理规模的、可承受时间范围内通过传统的数据处理方法分析困难的数据称为大数据(big data)。大数据通常而言具有数据量大(volume)、类型繁多(variety)、速度快时效强(velocity)和潜在价值大(value)等“4V”典型特征。
所谓数据量大(volume)是指数据的采集、存储、计算量都非常大,因为数据的大小决定了所考虑的数据的价值和信息,一般是TB、PB、ZB及以上;类型繁多(variety)指的是数据的来源、类型、维度多样,即包括结构化和非结构化等,通常的如地理、图片、视频、日志;速度快时效强(velocity)是数据处理速度快能做到实时处理,也是大数据区分于传统数据挖掘的显然特征;潜在价值大(value)体现的是大数据分析应用目的意义所在,特点是单位数据的价值密度低,能发现传统方式发现不了信息与知识。
大数据代表着新的科学研究与思维方式,首先是它研究数据的出发点将放弃数据采集样本的随机性而是代之以样本等于总体为基础。其次,放弃对精确性的追求代之以繁杂和效率的重视。同时,放弃研究事件之间的因果关系而是代之以相关关系,也就是说放弃假设模型而是让数据自己说话。由于它独特的方式,从而蕴含着巨大的力量,科技发展和商业应用上成为了个性化服务、人工智能等重要的技术基础。
如今社会,“大数据”时代,正伴随着一个大规模生产、共享和应用数据和信息的时代快速地向我们驶来。正如《大数据时代》的作者维克托教授所说,“数据真正的价值就像漂浮在海洋上的一座冰山,你能够第一眼看到的只可能是冰山的七分之一,冰山七分之六的部分都是隐藏在海洋表平面之下的。”最早表示和建议“大数据”时代已经来到我们这个数字社会的全球知名咨询公司“麦肯锡”说道:“今天每一个行业和职能领域内,数据已经成为了工业生产的重要因素之一。”如今社会大幅度增长的生产率和消费者盈余,正是人们对海量大数据的挖掘和研究运用的成果。“大数据”时代已经潜移默化地开始影响当今人们的行事方式和生活状态。“大数据”时代已经成为了当今社会生活和工作的主旋律。
大数据所隐含着巨大的社会、经济、科研价值,被誉为未来世界的“石油”,谁掌握了数据,谁就掌握了主动权,已经成为信息主权的一种表现形式,大数据已经成为企业界、科技界乃至政界关注的热点。2008年和2011年Nature和Science等国际顶级学术刊物相继出版专刊探讨对大数据的研究,标志着大数据时代的到来。在商业领域,IBM 、Oracle 、微软、谷歌、亚马逊、Facebook 等跨国巨头是发展大数据处理技术的主要推动者。在科学研究领域,2012年3月,美国奥巴马政府6个部门宣布投资2亿美元联合启动“大数据研究和发展计划”,这一重大科技发展部署,堪比20世纪的信息高速公路计划。英国也将大数据研究列为战略性技术,对大数据研发给予优先资金支持。2013年英国政府向航天等领域的大数据研究注资约1.9亿英镑。我国也已将大数据科学的研究提上日程,2013年国家自然科学基金委开设了“大数据”研究重点项目群。2015年9月中国国务院印发《促进大数据发展行动纲要》明确推进大数据发展和应用。总体而言,大数据科学作为一个横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新型交叉学科,已成为科技界的研究热点。
以遥感为代表的对地观测领域,随着遥感技术的发展,人类对地球的综合观测能力达到空前水平。不同成像方式、不同波段和分辨率的遥感数据并存,遥感数据日益多元化;遥感影像数据量显著增加,呈指数级增长;数据获取的速度加快,更新周期缩短,时效性越来越强。遥感数据呈现出明显的“大数据”特征。本报告围绕对遥感大数据获取、数据处理、应用模式角度开展相关的调研和研究,
2.遥感传感器的数据获取
遥感数据是快速、直接获取观测目标信息的重要技术手段,国土资源、农业、林业、军事国防等领域具有广泛的应用。遥感传感器是采集数据的数据源,在大数据在遥感领域应用中占有重要的地位,是遥感领域大数据应用的基础,能够获取的观测范围越广越好、物理信息越丰富、信息层次、尺度、类型越多越好,这也是大数据对遥感数据采集的必然要求。进而通过构建立体、多源遥感系统数据库是大数据发挥价值的数据平台,这主要包括两方面:一是遥感数据采集传感器系统,现实需求和技术的发展促使遥感数据的获取逐渐向多源化、分布式的方向发展,主要是依赖各类航天、航空甚至是地面的遥感器,提供多样化的原始数据;一个方面是数据库平台,专业化的数据获取与多源遥感数据的综合应用需要将不同遥感器获得的不同类型、不同角度、局部的信息进行统一的管理。
2.1 遥感数据传感器系统
遥感数据传感器系统按层次主要可分为三层:①单个的遥感传感器。②一类传感器组成的完成某一特定类型或功能数据采集的遥感传感器系列,如果相互之间存在协调融合也就组成了一个系统。③有不同遥感传感器系列或者系统构成的更大、更复杂的遥感体系。
随着技术的发展,获取遥感数据的单个传感器能力具有相当的专业化与精细化,并向高空间分别率、高光谱分别率、高时间分辨率、多极化、多角度的方向发展,随着指标的不断提高,丰富了各物理量信息量。
遥感传感器一般都借助于一个平台,先进的卫星观测系统,包括有综合卫星平台和小卫星星座;全面一体化的观测综合系统。未来的传感器搭载平台是由高中低轨道上的大小卫星平台和高中低航空平台相辅相成,天地一体化、全球化、立体、多维、多源的观测系统,信息的获取依托于多种类型航天、航空遥感平台,利用可见光、红外及微波等多种探测手段,多方式获取对地观遥测数据的过程。
图2天地一体化观测综合系统
2.1.1 国内遥感数据获取体系现状
我国已经成功发射了近百颗卫星,初步形成了资源环境、气象、海洋三个系列的遥感卫星体系,正在运行的资源卫星,如“北京一号”卫星,环境与灾害监测预报小卫星星座、“吉林一号”等,民用立体测绘的卫星“资源三号”;太阳同步轨道FY气象卫星系列。以及计划发射的极轨气象卫星,其将具备全球、全天候大气探测能力。海洋卫星系列HY-1A、HY-1B等。
特别是,2006年国家启动论证,正在实施的“高分辨率对地观测系统”重大专项,要建立天基、临近空间、空基对地观测系统,将建设具有准实时、全天候获取各种空间数据的能力,形成集高空间、高光谱、高时间分辨率和宽地面覆盖于一体的对地观测系统。2013年随着高分一号卫星的成功发射,新型高分辨率对地观测卫星将陆续研制完成和发射。预计2020年前后将全面建成自主高分对地观测系统。
图3高分专项系统组成
非卫星平台的遥感数据体系,如主要有飞艇、飞机平台体系。平流层飞艇是一种轻于空气的飞行器,主要有艇囊、能源系统、载荷系统、推进系统等部分组成,工作高度在20-30km。具有驻空时间长、覆盖面积大、可不间断工作,适合区域应用。在数据获取时,能够连续长时间驻空观测,具有高时间分辨率。在遥测范围内,具有光学、红外、微波谱段,具有高空间分辨能力。2007年中国空间技术研究院便开展了平流层的飞艇平台遥感的研制,2008年上海交通大学研制的“致远一号”完成技术演示验证,随后成功实现了首次飞行。遥感飞机主要包括有人驾驶和无人驾驶,其具有机动灵活,能够进行快速实时的获取遥测数据的能力,这些项目的实施有助于获取立体的数据。
2.1.2国际遥感数据获取体系发展现状
目前为止,就对地观测而言全球共发射了五百颗以上对地观测卫星。其中,美国地球观测系统(Earth Ob servatio nSystem, EOS)计划的提出和实施带动了新一轮对地观测技术发展的浪潮, 而地球科学事业(ESE)战略计划是对EOS的提升与延续, 将地球系统科学的概念引入到计划中, 把对地观测技术与面临的科学问题紧密结合起来;欧洲太空局以遥感卫星1号、2号以及环境卫星等而立足于世界对地观测技术前列; 法国的高分辨率SPOT卫星系列在世界对地观测领域占据一席之地; 加拿大则以雷达卫星系列为其对地观测技术的特色发展战略; 日本制定了未来对地观测基本策略, 并给出了未来卫星研制和发射计划日程。
对于系统中的单颗遥感传感器数据获取尺度的发展,国际遥感卫星GeoEye的空间分辨率指标已达到4.41m, 军事领域以美国“锁眼”(KH)系列卫星为代表KH-12空间分辨率达0.1m;在民用和商用领域,近年来也出现了如艾科诺斯-2(Ikonos-2)、快鸟-2(QuickBird-2)等优于1m分辨率的卫星,2008年9月发射的地球之眼-1(GeoEye-1)卫星的分辨率已达到0.41m。美国的NASA发射的EO-1卫星搭载的超光谱成像仪共有220个谱段,光谱分辨率为10nm,Proba小卫星携带的CHRIS光谱成像仪光谱分辨率更是达到1.2nm;在微波遥感领域实现了全天时、全天候的观测能力。其中最为重要的是高分辨。
表1国外典型的高分辨率光学遥感卫星
国际上光学遥感卫星已经形成了有代表性的几个系列。从同一系列卫星的发展趋势可以看出,高分辨率光学遥感卫星的主流是向空间分辨率越来越高的方向发展,并且优于1m的可见光遥感卫星基本上都已经通过1000千克量级的卫星得以实现。
同时,近十几年来发展起来的高分辨率小卫星,将使得观测体系更加的完善,所能获得的数据的类型将更加的丰富,可以完全满足对地观测要求,而且经济成本很低。
表2典型高分辨率小卫星
从下图可以发现, 进入21世纪后, 就全球对地遥感为例,对地遥感进入了高速发展阶段,在未来的20年中, 全球对地观测卫星发射计划将持续发展。
图52013-2035年全球对地观测发射计划
2.2 遥感数据库平台
2.2.1 数据库现状简介
1986年中国遥感卫星地面站的建立标志着中国的遥感应用进入了新的纪元. 在过去的30年间, 中国遥感卫星地面站先后接收了包括Landsat, SPOT, JERS,Radarsat, ERS, Envisat, CBERS, HJ, ZY和GF等国内外系列卫星数据, 截止2013年存档各类对地观测卫星数据资料达330余万景, 是我国最大的陆地观测卫星数据历史档案库. 其中, 仅美国陆地卫星Landsat TM和ETM影像就有63万景左右, 时间跨度为1986~2011年. Landsat 8也于2013年发射升空. 这些卫星数据以合适的空间分辨率记录着人类活动和自然变化, 成为最长时间系列的星载陆地观测数据集. 特别是我国陆地观测卫星数据全国接收站网建成以后, 密云、喀什和三亚3个接收站实现了覆盖我国全部领土和亚洲70%陆地区域卫星数据的接收(图3). 正在建设的极地站将进一步扩展我国卫星数据的接收范围. 另外, 气象和海洋等卫星系列也为人类认知地球提供了时空动态数据. 近年来, 随着城市地理信息系统发展和新一代高分辨率卫星系统相继投入应用, 数据的年增量加速提高, 每年约递增30~50 TB. “十二五”期间, 我国计划发射5~6颗地球观测卫星, 建成高空间分辨率、高时间分辨率和高光谱分辨率的对地观测系统, 数据量将大幅增加. 作为高分辨率对地观测系统的首发星, 高分一号卫星突破了高空间分辨率、多光谱与宽覆盖相结合的光学遥感等关键技术, 分辨率可达2 m, 经过相机多角度视场拼接, 优于16 m分辨率的视场可达800 km以上, 4天即可完成一次重访, 在分辨率和幅宽的综合指标上达到了目前国内外民用光学遥感卫星的领先水平. 而2012年升空的ZY-3卫星, 每天获取的数据量就在10 TB以上. 到2020年, 高分系统与其他观测手段相结合, 将形成具有时空协调、全天时、全天候和全球范围观测能力的稳定运行系统.
2.2.2 遥感数据集成存储关键技术
(1)大数据下遥感研究的技术难点和瓶颈
大数据的出现给遥感研究带来了全新的挑战、发展机遇和解决思路。超大规模数据、海量数据、大数据可看作是三代数据管理技术的标签。其中,大数据的技术难点和瓶颈归纳起来主要有以下三个方面:
a. 数据量的膨胀
遥感平台的技术进步使得获取的观测数据量大幅度增加,当前大量传感器部署在卫星、飞机等飞行平台上,未来10年全球天、空、地部署的数百万计传感器每天获取的数据量将超过10PB,呈现出显著的大数据“4V”特征,需要解决遥感数据量增大所带来的遥感大数据存储和处理问题
b. 数据深度分析需求的增加
遥感技术发展初期,专业人员通过人工判读对信息进行解译及修正。当数据量小时,传统数据挖掘手段已经成功的解决一定应用需求,但是它们不能满足日益增大的观测数据量和日益复杂的应用模式需要。数据维度和规模的不断增加、信息提取精度的不断提高的情况下,层级深度与复杂度也随着增大。在大数据的深度分析的挑战下,传统的数据挖掘技术的扩展性遇到了很大的困难,对PB级以上的大数据分析还需要研究新的方法,依赖于计算机处理的数据分析新模式的出现和以数据为核心的知识发现方法。
c. 多源数据的高度异构与分散
遥感数据集成的最终目标是建立能使用户直接获取有价信息的卫星集成数据管理与归档系统。信息化与网络化的飞速发展与深入应用,遍布全球的多个数据观测中心都记录了巨大的海量数据,他们的高度异构、分散和动态更新。集成系统的建设涉及到众多领域、众多部门,目前这些子系统被独立开发和部署,难以实现资源的共享与交流。因此,如何提供一个高效的数据管理与信息整合的途径或平台,支持分布式环境下这些大规模数据的逻辑关联表达、语义集成、协调管理以及共享成为亟待解决的难题。
(2)数据集成存储关键技术
遥感的定义就是从不同的角度、不同的高度探测地面目标的变化规律,遥感数据的特点就是影像文件数据量大、数据碎片多,尤其是其类型也是多样化的。
以空间大数据库为例,空间信息数据大部分来源于对地观测系统日常的大数据产生。数据来源丰富,以地、空、天三个层次为三个观测级别平台,组成了大气、陆地、海洋先进观测系统,已经初步建立了一个气象、海洋、资源、环境和舰载四大级别的地观测系统。
大数据仓库,包含数据存储模块、数据仓库一整套配套模块化设计和系统性的架构设计。
图6大数据仓库系统性的架构设计
面向空间信息的大数据仓库架构简图显示,“点一关系”基于图论的底层基础存储架构作为核心数据模块,然后围绕着这个核心模块,有三个辅助模块,包括I/O优化缓存提速模块和多维度数据发布模块以及数据监控模块。在这四个模块的有机结合下,共同组成了大数据仓库的底层架构。
利用基于“点-关系”的存储架构体系,数据通过“关系”的组织方式进行存储,然后通过有机结合和其他三个辅助模块整合在一起。其中数据发布模块负责数据的一键式多媒体发布,方便用户根据不同的需求,根据统一化规格模式通过线上线下两种模式发布数据;I/O提速优化模块可以从根本上在数据传输过程中起到加速的作用,从底层入手提高整个系统对数据处理响应的效率;数据监控模块会是存在于数据仓库中的数据变得更加透明,更加容易被管理。然后在这一层底层架构上,架了一层REST风格的Web服务式API接口层。在这个开放式平台上面,可以提供各种用户自定义的应用Application,包括系统预留的数据商店、算法商店、数据预警APP和其他基于数据和数据算法相关联的应用程序。
其特点在于:
“高可扩展性”,由于大数据仓库可以存储和分发横跨于百个并行操作的廉价服务器数据集群,不用于传统的关系型数据库系统不能扩展到处理大规模数据。
“成本收益”,传统的关系型数据库管理系统中,会假设数据的最优价值,然后根据这些数据价值设定分类,然后根据分类内容不同的保存数据,因为保存所有数据的价格会非常昂贵,但是大数据仓库不然。大数据库仓库被设计为一个可向外扩展的架构,可以经济的存储所有需要被保存的数据以供以后使用,同时其节省的费用也是非常惊人的。
“灵活性更好”,大数据仓库能够使用户轻松的访问到新数据源,并且可以分析处理不同类型的数据,从这些数据中产生价值,这也就意味着大数据仓库的灵活性可以从社交媒体、电子邮件和点击流量等数据源获得宝贵的商业价值。
“容错能力”,大数据仓库一个关键的优势和特点就在于其容错能力,当数据节点发现错误的时候,系统会通过一定的途径得知这个消息,然后系统就会自动的采取一些措施来恢复数据或者立即备份其数据模块,防止数据发生不可复原的灾害,而不像传统的关系型数据库,一旦发生错误,就会导致整个系统不能够正常运行,甚至是短时间的数据瘫痪。所以说容错能力是大型数据仓库一个不可没有的能力,同时也是一个关键性的优势和特点。
“数据开放性平台的透明性”,由于使用了REST/API风格的接口,可以无缝提供接口给各个语言编程环境,同时还可以提供最简单的HTTP接口,用户可以直接通过浏览器就可以访问数据库的情况,并且还能够通过浏览器进行简单的数据库操作包括插入和删除等。
“数据仓库的结构模块化”,整个系统都采用了模块式构建,即每个模块内部是紧密连接的,每个模块和其他模块之间是松连接的,当系统需要升级和改版的时候,只需要替换和升级某个制定的模块就可以了,而不需要担心会发生因为升级了某一个模块而导致所有模块都无法运行的后果。
“数据安全性”,由于系统内的数据都会进行数据的备份和主服务器的双机热备,所以服务器宕机之后,系统内的数据库服务将仍然可以被使用,而且服务器的操作记录都会以数据的形式被保存下来,当发生集群宕机的情况,管理员还可以通过阅读和解析数据库的日志文件进行故障的分析和漏洞的解决。
“数据存储和处理更优”:由于本系统采用的数据存储模式是基于图论的存架构,对空间信息的表示将会变得更加合理和适用,所以数据的存储、处理和计算都会变得比一般普通传统的数据库表现将会更加优秀,性能将会变得更加好。
“数据透明性”:由于本系统采用了两种不同类型的数据监控方式,包括基于网络协议和网络流的数据监控,和基于数据内容的增量式数据监控,这样保证了大数据仓库下数据流传输、备份、流向的明确性和透明性。
大数据仓库其核心存储的概念就是将该遥感切片影像数据抽象为“点.关系”的存储理念。系统中,将每个切片数据抽象为图中的一个点,将切片之间的展开、包含的关系抽象为点与点之间的有向关系链。每个遥感影像切片数据都包含其特征地理位置信息数据,比如其经纬度、坐标信息等都将以“属性”的方式附属于切片“点”中。
整个大数据仓库平台的底层基础存储体系为一个复杂图,其中图中包含的基本元素是节点和关系,节点和关系都可以包含其各自的属性值。节点表示实体,依赖关系同时也是一种实体的表现。
图7大数据仓库平台的底层基础存储体系
2.3 小结
遥感传感器是采集数据的数据源,在大数据在遥感领域应用中占有重要的地位,是遥感领域大数据应用的基础。国内外均发展和建立了丰富的数据采集系统,为大数据的数据源提供了足够的来源。目前即存有海量的历史数据可供使用,同时随着遥感技术的发展还将采集足够丰富、多样的遥感数据。
存在的困难在于:①数据源之间类型分布,标准不统一;②数据源往往在分散于各部门之间,共享机制不完善。
下期我们将带您解读遥感大数据特点分析、处理关键技术、处理面临的挑战、智能自动分析与信息挖掘技术的发展趋势等相关信息。
-------------------------------------------------------------------------------
【我的名字】光学遥感
【我的账号】Opticalsensing
【我的简介】光学遥感领域的学术资讯平台
【投稿方式】稿件请发往508gxyg@sina.com,内容包括:标题、作者、单位、至少一张配图。稿件不得涉密,不得涉及单位内部信息。
【新朋友】点击标题下方“光学遥感”关注我们,或搜索公众号“光学遥感”,或搜索微信号“Opticalsensing”。
【老朋友】点击右上角,转发、收藏或分享本页面内容给好友、微信群、朋友圈。
-------------------------------------------------------------------------------
长按二维码,选择“识别图中二维码”后一键关注,获取更多光学遥感领域信息。